1
生成式AI的三大支柱
AI030Lesson 2
00:00

想象一个世界,人工智能不仅能够识别日落,还能 从虚无中创作出一幅。这标志着一种范式转变:从 判别模型——专注于计算概率 $p(output|input)$ 来标注已有数据——转向广阔的生成式AI领域。我们正超越过去的边界划分,进入对数据本身 底层数据分布的建模。

合成的三大支柱 传统基准: $p(output | input)$⚔️生成对抗网络(GANs)对抗性🌫️扩散模型去噪🔗Transformer序列

定义架构格局

我们的分类体系由三种截然不同的数学策略主导,每种策略都为 多模态合成图像合成提供了独特优势:

  • 生成对抗网络(GANs):两个神经网络之间的一场高风险对决—— 生成器 (伪造者)与 判别器 (侦探)。这种 对抗性互动 迫使生成器创造出越来越难以辨别的内容。
  • 扩散模型:在混沌中寻找秩序的过程。这些模型通过 迭代地添加和移除噪声 从数据中,最终掌握从纯粹噪声中塑造出稳健表征的能力。
  • 自回归Transformer:序列的建筑师。像 生成式预训练Transformer(GPT) 通过 预测下一个标记 基于此前所有内容的上下文进行预测,从而构建出长距离连贯的叙事和结构。
架构协同
现代突破很少孤立地使用单一支柱。例如Stable Diffusion系统使用一个 Transformer 来理解你的文本提示,并利用一个 扩散模型 过程将视觉像素具象化,通常借助 变分自编码器(VAEs)的建模。